具有成本效益的资产管理是多个行业的兴趣领域。具体而言,本文开发了深入的加固学习(DRL)解决方案,以自动确定不断恶化的水管的最佳康复政策。我们在在线和离线DRL设置中处理康复计划的问题。在在线DRL中,代理与具有不同长度,材料和故障率特征的多个管道的模拟环境进行交互。我们使用深Q学习(DQN)训练代理商,以最低限度的平均成本和减少故障概率学习最佳政策。在离线学习中,代理使用静态数据,例如DQN重播数据,通过保守的Q学习算法学习最佳策略,而无需与环境进行进一步的交互。我们证明,基于DRL的政策改善了标准预防,纠正和贪婪的计划替代方案。此外,从固定的DQN重播数据集中学习超过在线DQN设置。结果保证,由大型国家和行动轨迹组成的水管的现有恶化概况为在离线环境中学习康复政策提供了宝贵的途径,而无需模拟器。
translated by 谷歌翻译
本文介绍了TEVR,这是一种语音识别模型,旨在最大程度地减少令牌熵W.R.T.的变化。到语言模型。这利用了一个事实,即如果语言模型可以可靠,准确地预测一个令牌,那么声学模型就不需要准确地识别它。我们以9亿个参数训练德国ASR模型,并表明,在普通杂志德语上,TEVR的单词错误率非常有竞争力3.64%,这表现优于相对报道的结果的最佳结果降低了16.89%的单词错误率。我们希望将我们的训练有素的演讲识别管道发布到社区,将来会导致保护隐私的离线虚拟助手。
translated by 谷歌翻译